期刊
  出版年
  关键词
结果中检索 Open Search
Please wait a minute...
选择: 显示/隐藏图片
1. 基于改进Inception网络的语音分类模型
张秋余, 王煜坤
《计算机应用》唯一官方网站    2023, 43 (3): 909-915.   DOI: 10.11772/j.issn.1001-9081.2022010047
摘要339)   HTML10)    PDF (1970KB)(98)    收藏

针对传统音频分类模型提取音频特征的过程繁琐,以及现有神经网络模型存在过拟合、分类精度不高、梯度消失等问题,提出一种基于改进Inception网络的语音分类模型。首先,在模型中加入ResNet中的残差跳连思想以改进传统的InceptionV2模型,使网络模型在加深的同时避免梯度消失;其次,优化Inception模块中的卷积核大小,并利用不同尺寸卷积对原始语音的Log-Mel谱图进行深度特征提取,使模型通过自主学习的方式选择合适的卷积处理数据;同时,在深度与宽度两个维度改进模型以提高分类精度;最后,利用训练好的网络模型对语音数据进行分类预测,并通过Softmax函数得到分类结果。在清华大学汉语语音数据集THCHS-30与环境声音数据集UrbanSound8K数据集上的实验结果表明,改进的Inception网络模型在上述两个数据集上分类准确率分别为92.76%与93.34%。相较于VGG16、InceptionV2、GoogLeNet等模型,所提模型的分类准确率取得了最优,最多提高了27.30个百分点。所提模型具有更强的特征融合能力和更准确的分类结果,能够解决过拟合、梯度消失等问题。

图表 | 参考文献 | 相关文章 | 多维度评价